智能论文笔记

AvatarGen: a 3D Generative Model for Animatable Human Avatars

Jianfeng Zhang , Zihang Jiang , Dingdong Yang , Hongyi Xu , Yichun Shi , Guoxian Song , Zhongcong Xu , Xinchao Wang , Jiashi Feng

分类：计算机视觉

2022-08-01

无监督的生成的虚拟人类具有各种外观和动画姿势对于创建3D人体化身和其他AR/VR应用非常重要。现有方法要么仅限于刚性对象建模，要么不生成，因此无法合成高质量的虚拟人类并使它们进行动画化。在这项工作中，我们提出了Avatargen，这是第一种不仅可以具有不同外观的非刚性人类产生的方法，而且还可以完全控制姿势和观点，同时仅需要2D图像进行训练。具体而言，它通过利用粗糙的人体模型作为代理将观察空间扭曲到规范空间下的标准头像，将最近的3D甘斯扩展到了人类的衣服。为了建模非刚性动力学，它引入了一个变形网络，以学习规范空间中的姿势依赖性变形。为了提高生成的人类化身的几何质量，它利用签名距离字段作为几何表示，从而可以从几何学学习上的身体模型中进行更直接的正则化。从这些设计中受益，我们的方法可以生成具有高质量外观和几何形状建模的动画人体化身，从而极大地表现了先前的3D gan。此外，它有能力用于许多应用，例如单视重构造，复活和文本引导的合成。代码和预培训模型将可用。

translated by 谷歌翻译

PCA: Semi-supervised Segmentation with Patch Confidence Adversarial Training

Zihang Xu , Zhenghua Xu , Shuo Zhang , Thomas Lukasiewicz

分类：计算机视觉 | 机器学习

2022-07-24

基于深度学习的半监督学习（SSL）方法在医学图像细分中实现了强大的性能，可以通过使用大量未标记的数据来减轻医生昂贵的注释。与大多数现有的半监督学习方法不同，基于对抗性训练的方法通过学习分割图的数据分布来区分样本与不同来源，导致细分器生成更准确的预测。我们认为，此类方法的当前绩效限制是特征提取和学习偏好的问题。在本文中，我们提出了一种新的半监督的对抗方法，称为贴片置信疗法训练（PCA），用于医疗图像分割。我们提出的歧视器不是单个标量分类结果或像素级置信度图，而是创建贴片置信图，并根据斑块的规模进行分类。未标记数据的预测学习了每个贴片中的像素结构和上下文信息，以获得足够的梯度反馈，这有助于歧视器以融合到最佳状态，并改善半监督的分段性能。此外，在歧视者的输入中，我们补充了图像上的语义信息约束，使得未标记的数据更简单，以适合预期的数据分布。关于自动心脏诊断挑战（ACDC）2017数据集和脑肿瘤分割（BRATS）2019挑战数据集的广泛实验表明，我们的方法优于最先进的半监督方法，这证明了其对医疗图像分割的有效性。

translated by 谷歌翻译

CINO: A Chinese Minority Pre-trained Language Model

Ziqing Yang , Zihang Xu , Yiming Cui , Baoxin Wang , Min Lin , Dayong Wu , Zhigang Chen

分类：自然语言处理

2022-02-28

多语言预训练的语言模型在跨语言任务上表现出了令人印象深刻的表现。它极大地促进了自然语言处理在低资源语言上的应用。但是，当前的多语言模型仍然有些语言表现不佳。在本文中，我们提出了Cino（中国少数族裔训练的语言模型），这是一种用于中国少数语言的多语言预训练的语言模型。它涵盖了标准的中文，Yue中文和其他六种少数民族语言。为了评估多语言模型在少数族裔语言上的跨语性能力，我们从Wikipedia和新闻网站收集文档，并构建两个文本分类数据集，WCM（Wiki-Chinese-Minority）和CMNEWS（中国最少的新闻）。我们表明，Cino在各种分类任务上的表现明显优于基准。Cino模型和数据集可在http://cino.hfl-rc.com上公开获得。

translated by 谷歌翻译

Density-aware Haze Image Synthesis by Self-Supervised Content-Style Disentanglement

Chi Zhang , Zihang Lin , Liheng Xu , Zongliang Li , Wei Tang , Yuehu Liu , Gaofeng Meng , Le Wang , Li Li

分类：计算机视觉 | 机器学习

2021-03-11

通过对抗训练的雾霾图像转换的关键程序在于仅涉及雾度合成的特征，即表示不变语义内容的特征，即内容特征。以前的方法通过利用它在培训过程中对Haze图像进行分类来分开单独的内容。然而，在本文中，我们认识到在这种技术常规中的内容式解剖学的不完整性。缺陷的样式功能与内容信息纠缠不可避免地引导阴霾图像的呈现。要解决，我们通过随机线性插值提出自我监督的风格回归，以减少风格特征中的内容信息。烧蚀实验表明了静态感知雾度图像合成中的解开的完整性及其优越性。此外，所产生的雾度数据应用于车辆检测器的测试概括。雾度和检测性能之间的进一步研究表明，雾度对车辆探测器的概括具有明显的影响，并且这种性能降低水平与雾度水平线性相关，反过来验证了该方法的有效性。

translated by 谷歌翻译

ActiveNeRF: Learning where to See with Uncertainty Estimation

Xuran Pan , Zihang Lai , Shiji Song , Gao Huang

分类：计算机视觉

2022-09-18

最近，神经辐射场（NERF）在重建3D场景并从一组稀疏的2D图像中综合新视图方面表现出了有希望的表演。尽管有效，但NERF的性能受到训练样品质量的很大影响。由于现场有限的图像，Nerf无法很好地概括到新颖的观点，并可能崩溃到未观察到的区域中的琐碎解决方案。这使得在资源约束的情况下不切实际。在本文中，我们提出了一个新颖的学习框架Activenerf，旨在模拟一个3D场景，并具有限制的输入预算。具体而言，我们首先将不确定性估计纳入NERF模型，该模型在很少的观察下确保了鲁棒性，并提供了NERF如何理解场景的解释。在此基础上，我们建议根据积极学习方案将现有的培训设置补充新捕获的样本。通过评估给定新输入的不确定性的降低，我们选择了带来最多信息增益的样本。这样，可以通过最少的额外资源来提高新型视图合成的质量。广泛的实验验证了我们模型在现实和合成场景上的性能，尤其是在稀缺的训练数据中。代码将在\ url {https://github.com/leaplabthu/activenerf}上发布。

translated by 谷歌翻译

Learning to Weight Samples for Dynamic Early-exiting Networks

Yizeng Han , Yifan Pu , Zihang Lai , Chaofei Wang , Shiji Song , Junfen Cao , Wenhui Huang , Chao Deng , Gao Huang

分类：计算机视觉

2022-09-17

早期退出是提高深网推理效率的有效范例。通过构建具有不同资源需求的分类器（出口），此类网络可以在早期出口处输出简单的样本，从而消除了执行更深层的需求。尽管现有作品主要关注多EXIT网络的建筑设计，但此类模型的培训策略在很大程度上没有探索。当前的最新模型在培训期间对所有样品进行了相同的处理。但是，在测试过程中的早期外观行为被忽略了，从而导致训练和测试之间存在差距。在本文中，我们建议通过样品加权来弥合这一差距。从直觉上讲，简单的样品通常在推理期间在网络早期退出，应该为培训早期分类器提供更多贡献。但是，晚期分类器应强调硬样品的培训（主要是从更深层退出）。我们的工作建议采用一个体重预测网络，以加重每个出口处不同训练样本的损失。这个重量预测网络和骨干模型在具有新的优化目标的元学习框架下共同优化。通过将推断期间的适应性行为带入训练阶段，我们表明拟议的加权机制始终提高分类准确性和推理效率之间的权衡。代码可在https://github.com/leaplabthu/l2w-den上找到。

translated by 谷歌翻译

On the Versatile Uses of Partial Distance Correlation in Deep Learning

Xingjian Zhen , Zihang Meng , Rudrasis Chakraborty , Vikas Singh

分类：计算机视觉

2022-07-20

比较神经网络模型的功能行为，无论是在培训期间还是在培训期间或培训期间它是一个单个网络（或者是一个网络），这是理解他们正在学习的内容（以及他们不是什么）的重要步骤确定正规化或提高效率的策略。尽管最近的进展，例如，将视觉变压器与CNN进行比较，但功能的系统比较，尤其是在不同的网络中，仍然很困难，并且通常是按一层进行的。诸如规范相关分析（CCA）之类的方法原则上适用，但到目前为止已很少使用。在本文中，我们从统计数据（及其部分变体）中重新审视A（鲜为人知的），旨在评估不同维度的特征空间之间的相关性。我们描述了进行大规模模型进行部署所需的步骤 - 这为令人惊讶的应用程序打开了大门，从调理一个深层模型W.R.T.另一个，学习分解了表示形式，并优化了直接对对抗性攻击更强大的不同模型。我们的实验表明，具有许多优势的多功能正规化程序（或约束），避免了此类分析中人们面临的一些常见困难。代码在https://github.com/zhenxingjian/partial_distance_correlation。

translated by 谷歌翻译

STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding

Zihang Lin , Chaolei Tan , Jian-Fang Hu , Zhi Jin , Tiancai Ye , Wei-Shi Zheng

分类：计算机视觉

2022-07-06

在这份技术报告中，我们将解决方案介绍给以人为中心的时空视频接地任务。我们提出了一个名为stvgformer的简洁有效框架，该框架将时空视觉语言依赖性与静态分支和动态分支建模。静态分支在单个帧中执行交叉模式的理解，并根据框架内视觉提示（如对象出现）学会在空间上定位目标对象。动态分支在多个帧上执行交叉模式理解。它学会了根据动作（如动作）的动态视觉提示来预测目标力矩的开始和结束时间。静态分支和动态分支均设计为跨模式变压器。我们进一步设计了一种新型的静态动力相互作用块，以使静态和动态分支相互传递有用和互补信息，这被证明可以有效地改善对硬病例的预测。我们提出的方法获得了39.6％的VIOU，并在第四人中挑战中获得了HC-STVG曲目的第一名。

translated by 谷歌翻译

Extreme Masking for Learning Instance and Distributed Visual Representations

Zhirong Wu , Zihang Lai , Xiao Sun , Stephen Lin

分类：计算机视觉

2022-06-09

本文提出了一种可扩展的方法，用于同时学习单个令牌和整体实例表示的分布式表示。我们使用自我注意解区块代表分布式令牌，然后是跨注意区块来汇总整体实例。该方法的核心是使用极大的令牌掩蔽（75％-90％）作为监督的数据增加。我们的模型命名为Oxtreara，遵循普通的BYOL方法，其中训练了来自未掩盖子集的实例表示从完整的输入中预测。学习需要模型在实例中捕获信息的变化，而不是鼓励不变。本文有三个贡献：1）随机掩盖是一种强大而有效的数据增强，用于学习可推广的注意力表示。 2）每个实例进行多次抽样，极端掩盖会大大加快学习的速度，并渴望获得更多数据。 3）与蒙版建模中的to徒监督不同，可以单独从实例监督中学到分布式表示形式。

translated by 谷歌翻译

Modelling Evolutionary and Stationary User Preferences for Temporal Sets Prediction

Le Yu , Zihang Liu , Tongyu Zhu , Leilei Sun , Bowen Du , Weifeng Lv

分类：机器学习

2022-04-12

给定一系列集合，其中每个集合与时间戳关联并包含任意数量的元素，时间集的任务预测旨在预测后续集合中的元素。先前对时间集预测的研究主要通过从自己的序列中学习来捕获每个用户的进化偏好。尽管有见地，但我们认为：1）不同用户序列中潜在的协作信号是必不可少的，但尚未被利用； 2）用户还倾向于显示固定的偏好，而现有方法未能考虑。为此，我们提出了一个集成的学习框架，以对时间集预测的用户的进化和固定偏好进行建模，该预测首先通过按时间顺序排列所有用户群的交互来构建通用序列，然后在每个用户集中学习相互作用。特别是，对于每个用户集的交互，我们首先设计一个进化用户偏好建模组件，以跟踪用户的时间不断发展的偏好，并在不同用户之间利用潜在的协作信号。该组件维护一个存储库来存储相关用户和元素的记忆，并根据当前编码的消息和过去的记忆不断更新其记忆。然后，我们设计了一个固定的用户偏好模型模块，以根据历史序列来发现每个用户的个性化特征，该模块从双重角度自适应地汇总了以前相互作用的元素，并在用户和元素的嵌入方式的指导下。最后，我们开发了一种设定批次算法来提高模型效率，该算法可以提前创建时间一致的批次，并平均实现3.5倍的训练速度。现实世界数据集的实验证明了我们方法的有效性和良好的解释性。

translated by 谷歌翻译